JSAI2026 ディレクトリ階層構造に基づくAgentic RAGの精度向上に関する研究
テーマ
企業内文書のディレクトリ階層を活用して、Agentic RAGの検索精度を高める
文書を単なるチャンク集合ではなく、階層的な知識構造として扱う
背景課題
RAGをやるために文書をチャンク化する際に構造的文脈や概念的知識構造が不可逆的に喪失
類似した製品・型番・文書種別が混在する環境で、意味的に似た別文書を誤取得しやすい
製品が混ざった回答を生成してしまう
一括ベクトル検索だけでは、「カテゴリを絞る → 対象文書を探す」という段階的探索を再現しにくい
提案
既存のディレクトリ階層を、検索に使える意味的階層として扱う
階層構造を見ながら、必要なファイルを段階的に探索する
手法
ディレクトリ構造をJSON化し、LLMエージェントの探索空間として与える
有向非循環グラフとして記述
エージェントは必要なファイルを選んで読み、根拠メモリを更新する
クエリに応じてデータを探索すべきかを判断する
失敗した検索結果をもとに、階層配置をLLMで見直す
人間が作った階層構造が完璧とは限らないから、必要だよね daiiz.icon
実験
実験設定
Native RAGとの比較
k=5のドキュメント取得
産業機械系の技術文書リポジトリ
100~700ページ/ファイル
製品カテゴリ・シリーズ・型番のような階層構造を利用
類似トピックが複数カテゴリに散在する状況を含めて評価
結果
階層最適化を行った提案手法は、通常のRAGより高い検索精度
対象のカテゴリが増えても検索精度は下がらない
考察
階層をそのまま使うだけでは性能が下がる場合もある
RAGの改善には、チャンク検索だけでなく「情報の置かれ方」も重要になる
GraphRAGとの方向性の比較などは?
取説を対象としてやっている
取説は数ヶ月で更新されるので、変更容易性が求められる
ベクトルDBの再構築を必要とせず、階層構造だけで実現できる手法が必要だった